JSAI2026 クラウドソーシングにより得たラベルからのEnd-to-endモデリングにおけるゴールドデータの利活用に関する検討
クラウドソーシング
教師ラベル付きデータを大量に用意できる
アノテータの能力を推定したい
1人当たり多数の回答が必要
実際は数件しか得られない
→ 能力判定は困難
考え方
画像xに対する真のラベルyをCNNで予測
すべてゴールドデータの時のCNNの予測精度は0.95くらい(十分な性能)
そのアノテータが回答しそうなラベルを予測
実際に回答されたラベルとの差を評価関数とする
既存手法
良いアノテータは混同行列が単位行列になる
悪いアノテータは混同行列がぼやける
なるほど、行列の特性を使い方が上手いな daiiz.icon
提案改良
ゴールドデータに対する教師あり損失の導入
ゴールドデータに基づく混同行列初期化
データ
LabelMeデータセット
画像の8分類タスク
結果
E2Eモデルの分類精度が向上
混同行列推定の収束精度が改善
#聴講メモ